草庐IT

python Pandas : select columns with all zero entries in dataframe

全部标签

python - 在 Pandas Dataframe 中回收

当用R中较短数组的值填充数组时,R将“回收”较短数组中的元素。例如,将长度为7的数组[,,,,,,]设置为数组['a','b','c']将给出['a','b','c','a','b','c','a']。是否有内置方法使用类似的回收方式填充pandas列(或numpy数组)? 最佳答案 与numpy.resize-In[199]:a=['a','b','c']In[200]:np.resize(a,7)Out[200]:array(['a','b','c','a','b','c','a'],dtype='|S1')

python - 如何使用 Pandas 将 Series 连接到 DataFrame 上?

如果我有一个DataFrame:students=pd.DataFrame([['Alex'],['Lauren'],])如何连接一个Series并创建一个新的DataFrame?例如,我想:>>>marks=pd.Series([.8,.75])>>>students.concat(marks).values[['Alex',.8],['Lauren',.75]]我知道我可以使用:students['marks']=marks但这会改变students。我试过:>>>pd.concat([students,marks])…AttributeError:'Series'objectha

python - 将 pandas MultiIndex DataFrame 从按行转换为按列

我在zipline和pandas工作,并使用to_frame()方法将pandas.Panel转换为pandas.DataFrame.这是生成的pandas.DataFrame,如您所见,它是多索引的:pricemajorminor2008-01-0300:00:00+00:00SPY129.93KO26.38PEP64.782008-01-0400:00:00+00:00SPY126.74KO26.43PEP64.592008-01-0700:00:00+00:00SPY126.63KO27.05PEP66.102008-01-0800:00:00+00:00SPY124.59KO2

python - Pandas 函数 : DataFrame. apply() 运行顶行两次

这个问题在这里已经有了答案:Whydoespandasapplycalculatetwice(3个答案)关闭2年前。我有两个版本的函数使用PandasforPython2.7逐行通过inputs.csv。第一个版本在单列上使用Series.apply(),并按预期遍历每一行。第二个版本在多列上使用了DataFrame.apply(),并且出于某种原因它读取了顶行两次。然后它继续执行其余的行而不重复。知道为什么后者会读取顶行两次吗?版本#1–Series.apply()(读取顶行一次)importpandasaspddf=pd.read_csv(inputs.csv,delimiter=

python - Networkx Multigraph from_pandas_dataframe

更新:所写的问题与Networkx版本from_pandas_dataframe方法hasbeendropped.要在Networkx>=2.0中完成相同的任务,请参阅已接受答案的更新。尝试创建MultiGraph()使用networkx的from_pandas_dataframe来自pandasDataFrame的实例.我在下面的示例中做错了什么?In[1]:importpandasaspdimportnetworkxasnxdf=pd.DataFrame([['geneA','geneB',0.05,'method1'],['geneA','geneC',0.45,'method1

python - 在同一调用中从 Spark Dataframes split 方法中选择数组元素?

我正在拆分一个HTTP请求来查看元素,我想知道是否有一种方法可以指定我想在同一个调用中查看的元素,而无需执行其他操作。例如:frompyspark.sqlimportfunctionsasfndf.select(fn.split(df.http_request,'/').alias('http'))给我一​​个新的Dataframe,其中包含这样的数组行:+--------------------+|http|+--------------------+|[,courses,26420...|我想要索引1(类(class))中的项目,而不必执行另一个select语句来指定df.sele

python - 如何计算 DataFrame 中连续 TRUE 的数量?

我有一个由True和False组成的数据集。SampleTable:ABC0FalseTrueFalse1FalseFalseFalse2TrueTrueFalse3TrueTrueTrue4FalseTrueFalse5TrueTrueTrue6TrueFalseFalse7TrueFalseTrue8FalseTrueTrue9TrueFalseFalse我想计算每一列的连续True值的数量,如果有多个连续的True系列,我想得到它的最大值。对于上表,我会得到:length=[3,4,2]我找到了类似的讨论帖,但没有一个能解决我的问题。因为我有并且将有更多的列(产品),所以我需要对

python - 使用定义的数据类型初始化 pandas DataFrame

pd.DataFrame文档字符串为整个数据帧指定了一个标量参数:dtype:dtype,默认无要强制的数据类型,否则推断看起来它确实是一个标量,因为下面会导致错误:dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=["O",pd.np.int64,"O"])dfbinseq=pd.DataFrame([],columns=["chr","centre","seq_binary"],dtype=[pd.np.object,pd.np.int64,pd.np.object])对我来说,创建一个空数据框

python - Pandas :Dataframe.Drop - ValueError:标签 ['id'] 不包含在轴中

试图从Pandas的DataFrame中删除一列。DataFrame从文本文件创建。importpandasaspddf=pd.read_csv('sample.txt')df.drop(['a'],1,inplace=True)但是,这会产生以下错误:ValueError:labels['a']notcontainedinaxis这是sample.txt文件的副本:a,b,c,d,e1,2,3,4,52,3,4,5,63,4,5,6,74,5,6,7,8提前致谢。 最佳答案 所以问题是您的“sample.txt”文件实际上并不包含

python - 转置 Pandas DataFrame 并将列标题更改为列表

我有以下Pandas子数据框col1name1name2522a100.21021b72-0.1col1没有重复项。我想转置数据框并将列标题更改为col1值。理想情况下,输出应该看起来像Variableabname11072name20.2-0.1很容易转置df并将第一列标记为变量df.transpose().reset_index().rename(columns={'index':'Variable'})结果DF将以原始DF的索引作为列标题(并且它们未排序并且在我的数据中不从1开始!)如何更改其余列名? 最佳答案 需要set_i